D5 - 數據隱身法術 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 5

AI/ ML & Data

數據隱私：工具和風險系列第 5 篇

D5 - 數據隱身法術

16th鐵人賽呀ˋ

拿湯匙的Fini

2024-09-19 22:49:20

822 瀏覽

分享至

今天教致盲術🥷🏻。

數據保護中，兩個讓資料實現「致盲」的重要概念：

匿名化(Anonymization)：
資料經處理，使其無法辨識特定人，且毫無重識別之可能，換句話說，經過匿名化處理的數據，無論用什麼方法，都無法再追溯到數據掌管者本身。
- 數據一旦被匿名化，就不再被視為個人資料，因此不受像 GDPR 這樣的隱私法約束。
- 常用於統計分析、數據挖掘等，特別是需要大規模分析數據但不涉及識別個人的情況下。
假名化(Pseudonymization)：
將個人資料中的識別資訊用替代值(如代號或編碼)替換，但保留恢復為原始數據的能力，數據依然可以通過使用額外資訊來識別特定人。
- 數據仍然屬於個人資料，只是識別風險降低，如果有合法的權限或額外的密鑰，可以還原數據的真實身份，因此它仍然受到隱私法規的保護。
- 常用於分析數據，但希望降低直接識別個人的風險，在醫療、金融等領域應用廣泛。

然而，如果要完全「致盲」，當然希望對方連一絲一毫都看不見，所以接下來要更近一步討論數據匿名化，防止敵人通過推斷攻擊(inference attacks)識別個人資訊。(聽起來像我取的一個招式名字，但真的有這個攻擊😠)
接下來的三種技術，是用於提高數據匿名化程度的增能法術：

K-匿名化(k-anonymity)👺：
確保在數據集中，至少有k個是相同的，任何一個數據都不能為唯一。
- 通過模糊化或去除識別性強的特徵，以降低被識別風險，如生日或郵政編碼。
- 限制：如果特徵在敏感數據集中出現的頻率非常高或低，攻擊者依然能通過推斷來識別。
- Ex：在一個醫療數據集中，可能會將年齡模糊成範圍(如30-40歲)，或將郵編縮小到前三位。
L-多樣性(l-diversity)🪬：
確保在K-匿名化的條件下，每個等價類(即具有相同quasi-identifiers的k個數據)中，敏感特徵(疾病或收入等，至少有l種不同的值，這樣就算能確定某人位在某等價類，也無法確定其具體敏感資訊。
- L-多樣性通過增加敏感特徵值的多樣性，進一步降低推斷攻擊的風險。
- 限制：它主要解決同一敏感特徵在同等價類中過於集中的問題，但它無法保護數據的「分佈性」，即使敏感屬性有多樣性，也可能存在分佈差異，導致隱私洩漏。
T-近似性(t-closeness)🕯️：
它進一步強化L-多樣性，確保每個等價類中敏感特徵值的分佈與整個數據集中該敏感特徵值的分佈接近，具體來說，某個等價類中敏感特徵的分佈與數據集整體分佈的差距不應超過一個預設的t值。
- 這種方法進一步限制了數據的差異性，使等價類內的數據不會過於偏離整個數據集的敏感特徵分佈，減少攻擊者通過分佈差異進行推斷的可能性。
- 限制：在保護隱私的同時，也可能影響數據的實用性，因為需要保持敏感特徵在等價類與整個數據集之間的相似性。